智能论文笔记

Overview of Abusive and Threatening Language Detection in Urdu at FIRE 2021

Maaz Amjad , Alisa Zhila , Grigori Sidorov , Andrey Labunets , Sabur Butta , Hamza Imam Amjad , Oxana Vitman , Alexander Gelbukh

分类：自然语言处理

2022-07-14

随着社交媒体平台影响的增长，滥用的影响变得越来越有影响力。自动检测威胁和滥用语言的重要性不能高估。但是，大多数现有的研究和最先进的方法都以英语为目标语言，对低资产品语言的工作有限。在本文中，我们介绍了乌尔都语的两项滥用和威胁性语言检测的任务，该任务在全球范围内拥有超过1.7亿扬声器。两者都被视为二进制分类任务，其中需要参与系统将乌尔都语中的推文分类为两个类别，即：（i）第一个任务的滥用和不滥用，以及（ii）第二次威胁和不威胁。我们提供两个手动注释的数据集，其中包含标有（i）滥用和非虐待的推文，以及（ii）威胁和无威胁。滥用数据集在火车零件中包含2400个注释的推文，测试部分中包含1100个注释的推文。威胁数据集在火车部分中包含6000个注释的推文，测试部分中包含3950个注释的推文。我们还为这两个任务提供了逻辑回归和基于BERT的基线分类器。在这项共同的任务中，来自六个国家的21个团队注册参加了参与（印度，巴基斯坦，中国，马来西亚，阿拉伯联合酋长国和台湾），有10个团队提交了子任务A的奔跑，这是虐待语言检测，9个团队提交了他们的奔跑对于正在威胁语言检测的子任务B，七个团队提交了技术报告。最佳性能系统达到子任务A的F1得分值为0.880，子任务为0.545。对于两个子任务，基于M-Bert的变压器模型都表现出最佳性能。

translated by 谷歌翻译